XxlCrawler实战:从FlightAware抓取ICAO代码
创作时间:
2025-01-21 16:58:20
作者:
@小白创作中心
XxlCrawler实战:从FlightAware抓取ICAO代码
飞机出行是长距离旅行或出差的必备方式,登机牌上包含的重要信息之一就是航空公司的ICAO三字码。本文将介绍如何使用XxlCrawler抓取全球航空公司ICAO三字码,并提供两种不同的数据解析方式。
数据源介绍
目标网站
本文选择从航班追踪网站FlightAware获取实时航班对应的航空公司信息。在浏览器中打开目标网站,点击航空公司列表,可以看到包含航空公司ICAO码和英文名称的页面。
页面渲染结构
通过查看网页的调试信息,可以发现数据渲染的层次结构:从最顶层的pageContainer,到下级的prettyTable,再到表格中的tbody、tr和td。我们需要遍历td元素以获取所需数据。
XxlCrawler信息获取
创建XxlCrawler对象
在进行信息抓取前,需要定义抓取对象:
private static final String GET_ICAO_URL = "https://zh.flightaware.com/live/fleet/";
private static final String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36";
XxlCrawler crawler = new XxlCrawler.Builder()
.setUrls(GET_ICAO_URL)
.setAllowSpread(false)
.setThreadCount(3)
.setPauseMillis(2000)
.setUserAgent(USER_AGENT)
.setIfPost(false)
.setFailRetryCount(3)
.setPageParser(new PageParser<PageVo>() {
@Override
public void parse(Document html, Element pageVoElement, PageVo pageVo) {
printVo(pageVo);
}
}).build();
这里设置为只爬取目标页面一次,不进行扩散抓取。
定义PageVo对象
PageVo对象用于网页数据的解析:
@PageSelect(cssQuery = ".pageContainer .prettyTable >tbody")
@Data
public static class PageVo {
@PageFieldSelect(cssQuery = ">tr >td:eq(0)")
private List<String> flightsNum;
@PageFieldSelect(cssQuery = ">tr >td:eq(1)")
private List<String> icaoCode;
@PageFieldSelect(cssQuery = ">tr >td:eq(2)")
private List<String> airline;
}
这里定义了三个属性分别保存航班数、ICAO代码和航空公司英文名称。
直接PageVO解析
通过定义PageVO对象,可以实现属性的自助解析:
protected void printVo(PageVo pageVo) {
System.out.println(pageVo);
System.out.println(pageVo.getFlightsNum().size());
System.out.println(pageVo.getFlightsNum());
System.out.println(pageVo.getAirline().size());
System.out.println(pageVo.getAirline());
System.out.println(pageVo.getIcaoCode().size());
System.out.println(pageVo.getIcaoCode());
for (int i = 0; i < pageVo.getFlightsNum().size(); i++) {
System.out.println("航班数:" + pageVo.getFlightsNum().get(i) + "\t ICAO代码:" + pageVo.getIcaoCode().get(i)
+ "\t 航空英文名称:" + pageVo.getAirline().get(i));
}
}
运行代码可以看到相关信息已被成功爬取。
自定义解析
如果单元格较多,可以使用自定义解析模式:
protected void printElementVo(Element pageVoElement) {
List<AirlineVo> airlineList = new ArrayList<>();
for (int i = 0; i < pageVoElement.childrenSize(); i++) {
Element childElement = pageVoElement.child(i);
String flightsNum = childElement.child(0).text();
String icao = childElement.child(1).text();
String airline = childElement.child(2).text();
System.out.println("航班数:" + flightsNum + "\t ICAO代码:" + icao + "\t 航空英文名称:" + airline);
airlineList.add(new AirlineVo(flightsNum, icao, airline));
}
ExcelUtil<AirlineVo> util = new ExcelUtil<>(AirlineVo.class);
util.exportExcel(airlineList, "全球航空公司ICAO代码表-20240514");
}
@Data
@AllArgsConstructor
@NoArgsConstructor
public class AirlineVo {
@Excel(name = "航班数")
private String flightsNum;
@Excel(name = "icao代码")
private String icaoCode;
@Excel(name = "航空公司英文名称")
private String airlineEn;
}
最后将抓取的信息列表保存到Excel表格中。
总结
本文介绍了使用XxlCrawler抓取全球航空公司ICAO三字码的方法,提供了两种数据解析方式,并将结果保存为Excel文件。通过本文,读者可以掌握数据抓取和解析的基本技巧,为数据处理和信息获取提供实用的解决方案。
热门推荐
新手上路必读:实习期安全驾驶指南
检查腰神经跟刺激症状:坐位直腿抬高试验
蓄谋已久、步步进逼!揭露卢沟桥事变的历史真相
边境牧羊犬会掉毛吗?边牧几月份掉毛最厉害?
汽车熄火后有滴水声音是怎么回事
如何检查汽车电瓶状态
生姜敷膝盖可缓解关节疼痛?有一定缓解作用,皮肤易过敏者慎用
古人力气真比今人大吗?
提升工作效率的方法有哪些?如何高效管理时间?如何避免拖延症?
加拿大留学移民政策新动向!安省、BC省等推出新移民项目!
结构化面试考察什么能力
字节跳动捐赠2500万元助力北京大学《儒藏》数字化项目
乙巳丁未相合还是相克:五行属性与人际关系调和之道
北京多区小学招生人数及班级数曝光!2025年幼升小各区政策盘点
上海周边四大房车营地推荐,尽享春日户外时光
如何有效管理微信关注的公众号,让你的生活更高效
人工智能时代设计变革:如何不被取代而引领潮流?
脂溢性皮炎的头皮屑擦什么
属牛的六合生肖是谁
廉颇老矣 尚能饭否啥意思
人工智能如何提高公司效率的 5 种方法
美国男子自然怀孕产子:性别认同与生育权利的伦理困境
职工出差预借差旅费会计分录如何编制?
当AI遇见大数据:决策优化的下一个风口
微创手术是什么?从原理到术后护理全解析
最低收购价格已公布,从明年起,“几十年不涨”的粮价要开始涨了?
交通事故扣车货物取出办法
SQL中的EXISTS子句:探究其用途与应用
幻听是哪些精神疾病的症状?如何应对?
生姜的功效与应用:从传统到现代的全面解析